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摘要 : [目的 /意义 ] 提 出 一 个 药物 不 良 反 应 本 体 的 半自动 构建 方法 ,构建 的 细 粒 度 药物 不 良 反 应 本 体 为 利 
用 社交 媒体 挖 气 潜 在 的 药物 不 良 反应 信号 提供 语义 资源 库 。 [ 方法/ 过程] 首先 ,采用 业务 层次 和 语言 层次 相 分 
离 的 设计 理念 ,将 用 户 在 社交 媒体 中 评论 的 药物 不 良 反 应 表示 成 "对象 要 素 - 属性 要 素 -描述 概念 ”的 形式 。 
细 粒 度 体现 在 社交 媒体 用 户 对 药物 同一 不 良 反应 描述 概念 表达 的 多 样 性 上 。 然 后 ,基于 深度 学 习 的 思想 ,利用 
基于 word2vec 的 描述 概念 候选 词 抽取 算法 自动 地 抽取 出 更 多 的 描述 概念 候选 词 构建 本 体 。[ 结果 /结论 ] 以 糖 
尿 病 药物 的 建 模 实例 表明 ,提出 的 细 粒 度 药物 不 良 反应 本 体 的 半自动 构建 方案 ,提高 了 本 体 构 建 的 智能 化 水 
平 ,构建 的 细 粒 度 药物 不 良 反应 本 体 为 利用 社交 媒体 挖 握 潜 在 的 药物 不 良 反 应 信号 提供 语义 资源 库 。 
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本 体 在 哲学 层面 原 指 现实 世界 中 事物 的 具体 存 
在 当 | 申 到 信息 科学 中 的 语义 层面 , 则 可 将 本 体 理解 为 
通过 描述 概念 及 概念 问 关 系 构 建 的 专业 领域 的 知识 表 
示 笨 系 。 利 用 领域 本 体 表 示 和 组 织 领域 知识 ,不 仅 利 
于 领域 知识 的 共享 ,而 且 基于 本 体 的 查询 和 推理 机 制 
更 能 将 领域 知识 运用 于 人 工 智 能 解决 实际 问题 ,具有 
更 富 的 研究 和 实用 价值 。 
本 体 构 建 的 真正 难点 是 人 工 梳理 相关 知识 的 工作 
量 灾 开发 周期 长 ,而 且 单 任 技 术 人 员 的 知识 储备 和 对 
概念 间 关 系 的 主观 判断 ,不 易 做 到 准确 、 全 面 。 这 种 依 
靠 人 工 构 建 本 体 知识 体系 的 方式 效率 低 、 公 认 性 差 , 成 
为 制约 领域 本 体 发 展 的 一 个 瓶颈 。 国 外 在 提高 本 体 开 
发 效率 方面 的 研究 一 直 处 于 领先 , 提出 的 本 体 学 习 
(ontology learning) 技术 就 是 其 中 最 具 代 表 性 的 研究 成 
果 。 其 目标 是 利用 机 器 学 习 和 统计 等 技术 自动 或 半 自 
动 地 从 自然 语言 文本 语 料 中 提取 领域 概念 和 这 些 概 念 
之 间 的 关系 ,并 将 其 用 本 体 语 言 编码 形成 易于 检索 的 
本 体 。 然 而 ,在 目前 的 技术 条 件 下 ,实现 完全 自动 的 获 
取 和 处 理 知识 还 不 现实 ,整个 本 体 学 习 过 程 还 是 一 个 
需要 人 工 参 与 的 人 机 结合 的 半自动 构建 过 程 。 


2 相关 研究 


随 着 Web2.0 时 代 的 来 临 ,社交 媒体 以 前 所 未 有 
的 数据 增长 态势 ,积累 了 大 量 用 户 数据 资源 。 用 户 经 
常 搜索 一 些 健康 相关 主题 的 社交 媒体 并 在 上 面 分 享 自 
己 的 用 药 体 验 ,这 些 社交 平台 的 出 现 , 为 药物 不 良 反应 
监测 提供 了 新 的 途径 。 自 然 语言 处 理 技 术 与 机 器 学 习 
方法 的 应 用 为 从 社交 媒体 挖掘 潜在 的 药物 不 良 反应 提 
供 了 必要 的 手段 "”。M. Yang 等 构建 了 一 个 利用 半 监 
督学 习 的 文本 分 类 方法 从 社交 媒体 数据 中 自动 识别 药 
物 不 良 反 应 (Adverse Drug Reaction ,ADR ) 信息 的 预警 
模型 ,可 以 帮助 药品 监管 部 门 和 制药 公司 识别 社交 媒 
体 上 可 疑 的 ADR 消息 ”;B，W.，Chee 等 使 用 一 种 机 
器 学 习 方 法 ,基于 在 线 健康 论坛 中 提取 的 信息 ,将 药物 
分 类 为 FDA 的 观察 名 单 和 非 观察 名 单 ”。 制 药 公司 
也 对 来 自 患 者 即时 的 和 直接 报告 的 药物 不 良 反 应 非常 
感 兴趣 ,因为 这 些 对 药品 上 市 后 监督 期 间 的 早期 报告 ， 
能 够 使 他 们 及 早 地 发 现 问题 并 采取 措施 ,而 免 于 受到 
更 严重 的 法 律 诉讼 和 利益 损失 ” 。 
健康 医疗 研究 应 当 充 分 利用 这 些 丰 富 的 信息 资 
源 ,V. Hunsel 等 的 调查 揭示 了 和 荷兰 患者 报告 药物 不 良 
反应 的 动机 ,表明 患者 愿意 在 社交 媒体 上 分 享 他 们 使 
用 药品 的 经 验 ” 。 这 些 用 户 生成 内 容 (User Generated 
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Content,UGC ) 的 迅速 涌现 ,已 成 为 持续 监测 公共 卫生 
资源 和 不 良 疾病 事件 的 重要 资产 中 。 分 析 社 交 媒体 网 
站 上 患者 的 叙述 内 容 , 对 于 评估 患者 感知 的 药物 不 良 
反应 风险 "和 挖 所 药物 与 不 良 反 应 之 间 的 关系 也 是 非 
常 重要 的 1。 研究 表明 ,ADR 的 患者 报告 对 于 可 靠 的 
药物 警戒 可 做 出 重要 贡献 ”。 

构建 药物 不 良 反应 领域 本 体 可 以 在 药物 警戒 或 个 
性 化 健康 医疗 服务 中 发 挥 积 极 的 作用 。M.，C，Cai 等 
建立 了 一 个 全 面 的 ADR 本 体 数据 库 ADReCS( Adverse 
Drug Reaction Classification System ) ,提供 了 ADR 术语 
的 标准 化 和 层次 分 类 中 ; Julien S. 等 构建 了 一 个 对 
MedDRA 术语 进行 形式 化 描述 的 语义 资源 库 On- 
toADR ,改进 了 MedDRA 术语 的 检索 和 编码 ,并 可 以 进 
行 按 需 定制 分 组 5 ; 密 敬 根 大 学 的 了 Y，Q，He 等 创建 
了 过 良 事 件 本 体 OAE ( Ontology of Adverse Events ) ,对 
医疗 干预 后 发 生 的 各 种 不 良 事件 进行 逻辑 定义 和 分 
类 S$ 为 不 良 事 件 的 逻辑 表示 和 分 析 以 及 决定 其 临床 结 
虚 丽 重要 因素 提供 平台 "”"。 国 内 学 者 李 梅 等 构建 了 
我 国 心血 管 药 物 不 良 反 应 中 英文 本 体 知识 库 , 系统 地 
开 吉 心血 管 药物 不 良 反应 ,为 心血 管 药物 不 良 反应 的 
做 所 与 知识 发 现 提供 基础 "” ;并 基于 本 体 对 国内 抗 感 
冻 药 物 不 良 反应 报告 进行 分 析 , 促 进 抗 感染 药物 的 合 
理 便 用 5 。 
-全 然而 ,已 有 的 药物 不 良 反应 本 体 是 基于 医学 词典 
称 尖 业 医学 知识 库 开 发 的 ,这 些 本 体 中 涉及 的 是 医学 
概 资 和 专业 术语 , 随 着 利用 社交 媒体 挖掘 药物 不 良 反 
应 重要 性 的 提升 ,利用 已 有 本 体 进行 知识 表示 和 推理 
已 十 再 适应 社交 媒体 用 户 多 样 化 表达 的 需要 ,不 利于 
潜在 药物 不 良 反应 的 发 现 。 此 外 ,利用 社交 媒体 挖 所 
药物 不 良 反应 的 过 程 中 涉及 的 大 量 描述 不 良 反 应 的 词 
汇 是 用 药 者 使 用 的 非 专业 用 请 ,而 且 不 同 的 用 药 者 对 
同一 种 不 良 反应 现象 的 描述 可 能 是 多 种 多 样 的 。 在 基 
于 词典 或 本 体 的 药物 不 良 反 应 事件 抽取 研究 中 ,这 些 
未 在 词典 或 本 体 中 出 现 的 不 良 反应 描述 常常 被 错过 和 
忽视 ,从 而 减弱 了 该 种 不 良 反 应 实际 发 生 的 强度 ,降低 
了 医师 .药品 生产 厂家 、 患 者 等 对 发 生 该 种 不 良 反应 可 
能 性 的 评价 。 因 此 ,笔者 提出 的 面向 社交 媒体 挖掘 的 
细 粒 度 药物 不 良 反 应 本 体 (Fine -grained Adverse Drug 


对 象 及 属性 ,能 和 否 通过 机 器 学 习 的 方法 进行 辅助 梳理 ， 
提高 本 体 构建 的 效率 和 智能 化 水 平 , 将 是 笔者 主要 解 
决 的 问题 。 


3 ” 细 粒 度 药物 不 良 反应 本 体 描述 概念 


生成 方法 

笔者 设计 的 本 体 模型 基于 业务 层次 和 语言 层次 相 
分 离 的 思想 。 首 先 用 本 体 表示 多 层次 的 药物 和 不 良 反 
应 分 类 ,药物 不 良 反应 本 体 由 要 素 和 概念 两 个 层面 构 
成 :要 素 是 领域 层次 ,一 般 描述 药物 不 良 反应 领域 对 象 
及 其 属性 ,这 个 层面 是 与 专业 知识 相关 的 ,需要 医学 领 
域 专家 参与 界定 ;概念 是 语言 层次 ,描述 基本 的 语言 概 
念 ,例如 服用 药物 后 患者 的 生理 反应 、 心 理 效 应 、 对 药 
效 的 评价 等 ,这 些 语言 概念 是 与 专业 知识 不 相关 的 语 
言 资源 ,可 以 由 技术 人 员 基 于 用 药 者 评论 ,对 常见 的 语 
言 概念 进行 收集 和 整理 。 这 样 ,在 进行 本 体 设计 时 就 可 
以 将 领域 层次 和 语言 层次 相 分 离 ,领域 专家 可 以 专注 在 
领域 要 素 的 维护 上 , 而 不 需要 再 去 关注 语言 表达 上 的 细 
节 , 而 语言 概念 的 处 理 可 以 交 由 技术 人 员 完 成 ” 。 

将 用 户 在 网 络 健康 社区 中 评论 的 药物 不 良 反应 表 
示 成 “对 象 - 属性 -评价 ”的 形式 。 笔 者 建立 的 药物 
不 良 反应 本 体 ,依据 药品 分 类 体系 ,比如 ,药品 分 类 中 
有 一 个 类 叫 “DRUGS USED IN DIABETES”, 它 又 可 以 
和 对 象 要 素 、 属 性 要 素 进 行 关联 ,对 象 要 素 包 括 INSU- 
LINS AND ANALOGCUES 、Biguanides Sulfonylureas\ Al- 


pha glucosidase inhibitors Thiazolidinediones 、 DDP -4 in- 
hibitors 等 ,属性 要 素 是 具体 的 身体 部 位 或 器 官 ,对 象 
要 素 和 属性 要 素 又 同时 可 以 和 第 三 个 层次 "描述 概 
念 " 相互 关联 ,笔者 将 "描述 概念 "界定 为 患者 在 社交 
媒体 上 评论 的 服用 某 种 药物 引起 的 不 良 反 应 的 描述 词 
汇 ,如 nausea .cough .weight gained 等 。 通 过 “ 对象 要 素 
-属性 要 素 - 描述 概念 " 进行 相互 关联 和 组 合 就 构成 
了 对 “DRUGS USED IN DIABETES” 这 个 本 体 挖掘 表达 
式 的 设置 ,从 中 得 到 想 要 的 本 体 描 述 形 式 , 如 "Insulin 
caused respiratory tract infection in the respiratory sys- 
tem”。 所 以 ,只 要 知道 用 户 的 观点 是 在 描述 某 种 药物 
服用 后 的 效果 和 感受 ,就 能 够 把 这 个 描述 分 类 到 该 种 
药物 的 不 良 反应 类 别 下 。 这 些 描述 概念 由 于 来 自 广大 


Reaction Ontology ,FCADRO ) 可 以 解决 上 述 问 题 , 细 粒 
度 即 体现 在 社交 媒体 用 户 对 不 良 反应 描述 概念 的 多 样 
化 表达 上 。 

本 体 构建 人 工 参 与 工作 量 大 , 且 不 易 做 到 准确 全 
面 , 如 何 快速 、 全 面 地 梳理 领域 概念 ,如 何 正 确 地 匹配 


网 民 , 他 们 在 健康 社区 中 对 服用 药物 后 的 评价 语言 五 
花 八 门 , 描 述 词汇 多 是 非 专 业 用 语 ,甚至 包含 口语 化 的 
表达 。 这 些 语言 概念 关于 人 的 情绪 或 人 们 对 事物 的 评 
价 ,它们 与 专业 领域 无 关 , 因 此 可 以 交 由 技术 人 员 协 助 
领域 专家 进行 收集 和 梳理 。 
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基于 深度 学 习 思 想 ,笔者 提出 了 基于 word2vec 的 
药物 不 良 反 应 本 体 描述 概念 的 抽取 方法 ,通过 机 器 学 
习 辅 助 梳理 药物 不 良 反 应 细 粒 度 的 描述 概念 ,实现 药 
物 不 良 反 应 本 体 的 半自动 构建 。 领 域 本 体 描 述 概 念 的 
抽取 过 程 ,主要 包括 :种 子 概念 的 提取 、 细 粒度 描述 概 
念 候选 词 抽取 和 细 粒 度 描述 概念 候选 词 筛选 3 个 环 
节 。 如 图 1 所 示 : 


领域 语 料 


词 词典 
细 粒 度 描述 概念 


提取 种 子 概念 
了 概念 候选 词 抽取 
J 
细 粒 度 描述 概念 


候选 词 第 选 
> 撕 述 概念 
CN 
(© 图 1 药物 不 良 反应 本 体 描述 概念 的 抽取 过 程 


3(B 种 子 概念 的 提取 

做 本 文中 药物 不 良 反应 领域 词典 选择 的 是 生物 医学 
姓 玫 资源 SIDER( Side Effect Resource) 。SIDER 是 常用 
药 辆 不 良 反应 数据 库 ,记录 了 多 种 上 市 药品 及 其 不 良 
反 励 信息 。SIDER 中 的 不 良 反 应 名 称 已 经 映射 到 
uit (Unified Medical Language System ) 的 超级 叙 词 表 
中 之 领域 知识 通常 围绕 一 些 重要 的 概念 展开 ,将 领域 
用 移 核 心 概念 称 为 种 子 概念 “ 。 例 如 在 医学 领域 ， 
由 Caiqiac disorders”“ Endocrine disorders” “ Gastrointesti- 
nisorders” 等 术语 都 是 由 核心 词 “ disorder” 与 其 他 词 
搭 柄 而 成 。 以 种 子 概念 作为 中 心 词 利 用 相应 的 算法 ， 
可 以 生成 若干 个 扩展 的 领域 概念 。 笔 者 利用 药物 不 良 
反应 领域 词典 ,从 相应 药物 已 知 的 不 良 反 应 中 挑选 出 
最 具 代 表 性 的 核心 词汇 作为 种 子 概念 ,以 这 些 概 念 为 
基础 ,进行 细 粒 度 描述 概念 候选 词 的 抽取 和 筛选 。 
3.2 ”基于 word2vec 的 细 粒 度 描 述 概念 候选 词 的 抽取 

描述 概念 的 获取 是 构建 药物 不 良 反应 本 体 的 关键 

环节 ,描述 概念 的 自动 抽取 是 指 借 助 一 定 的 技术 手段 ， 
将 反映 某 种 药物 不 良 反映 特征 或 共性 的 词汇 从 一 定 规 
模 的 自由 本 文中 抽取 出 来 。 本 研究 利用 word2vec 将 描 
述 药 物 不 良 反 应 的 细 粒 度 词 汇 映 射 为 词 向 量 , 通 过 计 
算 向 量 间 的 余弦 值得 到 词汇 间 的 相似 度 ,搜寻 与 种 子 
概念 的 相似 度 大 于 设 定 阔 值 的 词 作 为 药物 不 良 反 应 描 
述 概念 候选 词 。 
细 粒 度 描述 概念 候选 词 的 抽取 过 程 如 图 2 所 示 : 
首先 使 用 word2vec 工具 对 分 词 后 的 语 料 进行 训练 ,得 
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到 词 向 量 模 型 ;然后 以 提取 的 药物 不 良 反应 种 子 概念 
作为 输入 词 表 进 行 初始 化 ,利用 该 模型 进行 语义 相关 
性 计算 ,获得 与 输入 词 表 的 相似 度 大 于 设 定 阐 值 的 词 
作为 描述 概念 候选 词 。 采取 迭代 算法 扩充 候选 词 集 : 
将 输入 词 表 作 为 迭代 变量 ,输出 词 表 与 输入 词 表 的 差 
集 为 输入 变量 ,往复 调用 词 向 量 模型 扩充 药物 不 良 反 
应 描述 概念 候选 词 集 ,直到 符合 迭代 终止 条 件 ”。 


分 词 后 的 
领域 语 料 


Word2vec 词 向 量 
模型 训练 


计算 种 子 概念 的 
相近 词汇 


计算 输出 词 表 
与 输入 词 表 的 
差 集 


细 粒 度 描述 概念 候选 词 


图 2 基于 word2vec 的 细 粒 度 描述 概念 候选 词 抽取 流程 


3.3” 细 粒度 描述 概念 候选 词 的 筛选 

本 体 是 一 个 专业 领域 的 知识 表示 体系 ,本 体 的 概 
念 应 是 精炼 的 ,规模 也 是 确定 的 。 因 此 ,通过 迭代 算法 
抽取 出 的 大 量 细 粒度 描述 概念 候选 词 应 需要 进行 进 一 
步 的 过 滤 ,筛选 出 细 粒 度 药物 不 良 反应 本 体 的 描述 概 


本 文 的 描述 概念 候选 词 科 选 借鉴 于 娟 等 的 思想 ， 
采用 领域 隶属 度 分 析 ” 的 方法 ,该 方法 的 基本 思想 
是 :如 果 某 个 候选 词 在 前 景 语 料 ( Foreground Corpora ， 
Gf) 中 出 现 的 概率 比 在 背景 语 料 ( Background Corpora， 
C5i) 中 出 现 的 概率 高 , 且 在 前 景 语 料 中 均匀 分 布 ,那么 
该 词 就 有 可 能 是 该 领域 的 描述 概念 。 其 中 ,前 景 语 料 
是 包含 丰富 种 子 概念 的 描述 概念 文档 集 , 一 般 由 奉 干 
标准 化 的 领域 文本 组 成 ;背景 语 料 是 与 种 子 概念 无 关 
的 其 它 领域 的 文档 ,用 来 与 前 景 语 料 作 对 比 ,验证 描述 
概念 在 其 它 领域 中 表现 出 的 不 同 统计 特性 ,一 般 由 三 
个 以 上 不 同 领域 的 若干 文档 组 成 。 

描述 概念 候选 词 ! 与 领域 D; 的 领域 隶属 度 DR 的 
计算 公式 如 下 : 


DR,, =lg( TP,) lel 


CsJ 2A 

其 中 ,P( 1 G7,) .P(t 1 C6,) 分 别 为 候选 词 在 前 
景 语 料 C; 和 背景 语 料 Cb 中 出 现 的 概率 。 实 际 计算 
时 ,分 别 取 估计 值 ,具体 计算 公式 如 下 : 


期 和 


i Say 
UL | 山 I 人 IV 口 | 


魏 放 , 傅 维 刚 . 面向 社交 媒体 的 细 粒 度 ADR 本 体 的 半自动 构建 方法 研究 [J]. 图 书 情报 工作 ,2019 ,63(3 ) :108 - 114. 


TPF, , 


E(P(t|Cf.)) = 未 公式 (2 
E(P(t|Cb,)) = i 公式 (3) 
TE, = 2 人 公式 (4) 


其 中 ,7F, ,为 候选 词 : 在 前 景 语 料 CA 中 出 现 的 频 
率 , 为 Gf, 的 文档 数目 , 为 Cb, 的 文档 数目 ,# ,为 1 在 
文档 C, 中 出 现 的 次 数 。 

对 每 一 个 描述 概念 候选 词 分 析 其 领域 隶属 度 , 将 


词 以 隶属 度 的 降序 排列 ,最 后 由 领域 专家 依据 本 体 构 
建 的 规模 和 该 词 的 流行 程度 综合 确认 那些 最 能 体现 该 
不 良 反 应 特征 的 描述 词汇 作为 细 粒 度 描 述 概 念 。 


细 粒 度 药物 不 良 反应 本 体 的 构建 过 各 


苹 曾 基于 知识 工程 "的 开发 方法 对 细 粒 度 药物 不 良 
反 局 本 体 进行 建 模 ,半自动 构建 领域 本 体 。 领 域 专家 
参加 ,知识 工程 师 人 工 设计 本 体 架构 ;在 提取 药物 不 良 
反 原 的 描述 概念 时 ,利用 词汇 的 上 下 文 语 境 生成 词 向 
最 -通过 机 器 学 习 的 方法 辅助 梳理 同 义 概念 ,提高 本 体 


SS 


中 广大 患者 对 药品 使 用 后 产生 的 不 良 反 应 的 更 细 粒 度 
的 描述 ,涵盖 更 多 患者 评论 的 真实 体验 数据 。 细 粒度 
药物 不 良 反应 本 体 是 一 个 全 面 的 药物 不 良 反 应 本 体 知 
识 库 ,不 仅 提供 药物 不 良 反应 的 标准 化 ,而 且 提 供 药 物 
不 良 反 应 各 种 描述 概念 的 分 级 分 类 。 它 在 生物 医学 和 
言 息 学 研究 中 的 应 用 远 远 超出 简单 的 术语 表 。 作 为 一 
个 本 体 知识 库 , 细 粒度 药物 不 良 反应 本 体 提 供 了 一 个 
直接 计算 药物 不 良 反应 相关 术语 间 关 系 的 机 会 ,并 提 
供 了 利用 社交 媒体 挖 气 潜 在 药物 不 良 反 应 特征 的 线 
索 。 还 通过 寻求 这 些 药物 的 共同 特性 ,如 药物 的 生理 
化 学 性 质 或 和 蛋白质 靶 标 结合 ,可 揭示 特定 药物 不 良 反 
应 的 分 子 机 制 ,以 协助 未 来 更 加 合理 的 药物 设计 等 。 

4.2 列举 细 粒 度 药物 不 良 反 应 本 体 中 的 重要 术语 和 


在 确定 了 领域 本 体 范 围 的 基础 上 ,列举 出 药物 不 
良 反应 领域 涉及 的 相关 重要 术语 和 概念 。 将 MedDRA 
和 UMLS 作为 药物 不 良 反应 术语 标准 化 的 主要 参考 。 
这 两 个 参考 数据 库 在 医学 术语 标准 化 方面 做 出 了 巨大 
贡献 ,他 们 的 成 果 已 得 到 业界 的 普遍 认可 。 本 文中 药 
物 不 良 反应 本 体 的 构建 参照 UMLS (一体 化 医学 语言 
系统 ) .MedDRA( 国际 医学 用 语词 典 ) SIDER( 药物 不 
良 反 应 资源 数据 库 ) ,界定 药物 不 良 反 应 领域 本 体 中 的 
重要 术语 和 相关 概念 , 表 1 列举 出 了 部 分 重要 术语 。 


表 1 细 粒 度 药物 不 良 反 应 本 体 的 重要 术语 


blood and lymphatic system disorders, blood and lymphatic system disorders, cardiac disorders, congenital, familial and genetic disorders, ear and 
labyrinth disorders, endocrine disorders, eye disorders, gastrointestinal disorders, hepatobiliary disorders, immune system disorders, infection and 
infestations , investigations, nervous system disorders, pregnancy, puerperium and perinatal conditions, psychiatric disorders, renal and urinary dis- 


orders, reproductive system and breast disorders, respiratory, thoracic and mediastina disorders, skin and subcutaneous tissue disorders, vascular 


| . 
Dd disorders, surgical and medical procedures. 
Drug alimentary tract and metabolism, blood and blood forming organs, cardiovascular system, dermatologicals, genito urinary system and sex hormones, 
(基于 分 类 和 systemic hormonal preparations, excl. sex hormones and insulins, antiinfectives for systemic use, antineoplastic and immunomodulating agents mus- 


作用 系统 ) 


Adverse 
Reactions 


gitis, paraesthesia, rhinitis, swelling: 


4.3 定义 细 粒 度 药物 不 良 反 应 本 体 类 及 类 的 层次 
体系 

类 用 于 描述 抽象 的 实体 对 象 ,代表 着 一 类 具有 共 
性 的 实例 对 象 ; 类 具有 继承 性 并 以 层次 结构 的 形式 组 
织 。 层 次 描述 了 术语 间 的 上 位 、 从 属 关 系 以 及 纵向 联 
系 ,更 重要 的 是 ,层次 结构 允许 在 不 同 层次 上 进行 计 
算 , 并 文 持 将 ADR 逻辑 链接 到 潜在 的 生理 机 能 

依 前 文中 本 体 表示 模型 所 述 ,本 研究 中 将 本 体 挖 
据 表 达 式 设置 成 “对 象 要 素 - 属性 要 素 - 描述 概念 ” 


culo-skeletal system, nervous system, antiparasitic products, insecticides and repellents, respiratory system, sensory organs, various... 


abscess, anaphylactic shock ,arthralgia, back pain, bronchitis, tongue coated, cough, dysgeusia, dysmenorrhoea, dyspepsia, fracture, gingival 


bleeding, gingival hyperplasia, glossitis, tongue geographic, headache, hypersensitivity, hypertension, arthropathy, pain, hypoaesthesia, pharyn- 


的 相互 关联 和 组 合 ,借鉴 MedDRA 和 WHO-ART 的 层 
次 结构 ,本 人 研究 中 细 粒 度 药 物 不 良 反 应 本 体 FGADRO 
的 分 层 树 包 含 4 个 层次 :OE .PE .PT、Fg-PT。 对 象 要 素 
OE 是 依据 药品 分 类 体系 对 药品 的 分 类 ;属性 要 素 PE 
是 系统 器 官 水 平 的 不 利 影响 ; 细 粒 度 体现 在 “描述 概 
念 ” 上 , 它 包 括 两 个 层次 :一 个 层次 是 PT 层 , 表 示 特 定 
的 唯一 的 和 明确 的 ADR 术语 , 它 是 必要 的 并 且 足 以 
表征 和 区 分 其 他 ADR 术语 的 单个 医学 概念 。 外 
层次 是 Fg-ADR 层 , 描 述 医学 概念 细 粒 度 的 同义词 . 词 


111 


图 二 情报 三 作 


第 63 卷 第 3 期 2019 年 2 月 


ChinaXiv 合 作 期 刊 


义 变 体 . 准 同义词 或 子 元 素 中 PT 层 的 扩展 ,笔者 提出 
的 面向 社交 媒体 构建 的 细 粒 度 药物 不 良 反应 本 体 即 体 
现在 此 。 利 用 前 文 第 三 部 分 提出 的 细 粒 度 药物 不 良 反 
应 本 体 描述 概念 生成 方法 ,通过 机 器 学 习 辅 助 梳理 同 
义 概念 ,对 反映 同一 药物 不 良 反应 的 所 有 相关 描述 概 
念 进行 提取 ,提高 药物 不 良 反应 本 体 知识 库 的 全 面 性 
和 科学 性 。 
4.4 ”定义 类 的 属性 

这 个 阶段 是 本 体 构建 的 重要 一步 ,将 前 一 阶段 建 
立 的 类 以 及 类 间 的 属性 加 以 限制 ,表达 了 领域 内 更 为 
完整 的 语义 。 对 象 属性 和 数据 类 型 属性 是 OWL 本 体 
中 的 两 种 重要 属性 。 对 象 属性 用 于 描述 两 个 类 之 间 的 
相互 关系 ;数据 类 型 属性 用 于 设 定 一 个 类 自身 独 有 的 
特性 。 通 常情 况 下 ,定义 类 类 的 层次 结构 和 定义 类 的 
局 己 这 两 个 步 又 是 一 个 不 断 重 复 的 过 程 , 先 后 顺序 可 
以 杖 加 以 区 分 ,迭代 进行 。 
4《9 生成 实例 
在 定义 了 类 及 类 的 相互 关系 后 就 可 以 为 本 体 创建 
实例 了 ,一 个 类 可 以 包含 多 个 实例 ,一 个 实例 也 可 能 属 

一 个 类 或 多 个 类 。 依 据 前 文 第 三 部 分 细 粒 度 药物 

反应 本 体 描述 概念 生成 方法 ,将 生成 的 细 粒 度 药 
畏 硕 良 反应 本 体 的 描述 概念 以 实例 的 形式 表示 和 存 
储 、 由 | 建 药物 不 良 反应 概念 类 中 的 个 体 实体 ,也 就 是 
将 受 征 和 区 分 药物 不 良 反应 术语 的 单个 医学 概念 在 
PEEDRO 类 中 以 子 类 形式 表示 ,而 对 同一 医学 概念 细 
Cf 


hg Weight 


increased 


Es 


2 3 4 5 6 党 


oedema Dyspnoea Swelling Somnolence Fatigue 


Lethargy 


粒度 描述 的 同义词 .词义 变 体 \ 准 同义词 等 以 添加 实例 
的 方式 表示 。 
4.6 本 体 的 检验 和 评价 

本 体 构建 的 正确 性 是 保证 本 体 查询 和 推理 有 效 进 
行 的 基础 ,因此 ,本 体 构建 的 最 后 一 步 是 对 所 构建 的 领 
域 本 体 进行 完整 性 和 一 致 性 检验 。 本 体 推理 机 可 用 于 
识别 本 体 中 语法 和 语义 冲突 以 及 矛盾 的 知识 。 


5 建 模 实例 


5.1 实验 本 体 范围 的 界定 

实验 中 将 以 糖尿 病 药物 为 例 ,构建 细 粒 度 的 糖尿 
病 药物 不 良 反应 本 体 。 

实验 数据 来 源 于 美国 著名 的 药品 评论 公益 网 站 
Ask a Patient ,该 网 站 为 患者 提供 了 一 个 交流 和 分 享 药 
物 治疗 经 验 的 平台 。 选 择 糖 尿 病 药物 板块 作为 数据 
源 ,采集 39 种 糖尿 病 药物 的 17 682 条 不 良 反 应 评论 数 
据 。 将 每 种 药物 对 应 的 不 良 反 应 评论 数据 分 别 存放 于 
excel 表 中 待 作 进一步 处 理 。 
5.2 基于 word2vec 的 细 粒 度 描 述 概念 候选 词 的 抽取 

将 数据 集 导 入 到 mysql 中 ,基于 药物 不 良 反应 领 
域 词 典 利 用 Stanford NLP 对 语 料 进 行 Tokenization , 包 
括 词性 还 原 、 去 停 用 词 等 处 理 , 得 到 分 词 后 的 种 子 概念 
输入 词 表 和 药物 不 良 反 应 语 料 词 表 。 图 3 列 出 了 药品 
ACTOS 的 种 子 概念 输入 词 表 。 


8 9 10 笠 


Weight 
decreased* 


12 13 14 


Abnormal 
weight gain 


Arthralgia Myalgia Pain Headache | Diziness* 


图 3 药品 ACTOS 的 种 子 概念 输入 词 表 


采用 Python gensim 模块 提供 的 word2vec 工具 包 ， 
将 分 词 后 的 结果 作为 word2vec 的 输入 对 语 料 进行 训 
练 。 训 练 结束 后 ,得 到 语 料 中 药物 不 良 反应 的 描述 概 
念 候选 词 和 其 对 应 的 词 向 量 , 通 过 余 弱 定理 计算 种 子 
概念 的 语义 近似 词 ,进行 排序 并 返回 结果 。 通 过 
word2vec 提取 的 细 粒 度 药物 不 良 反 应 描述 概念 候选 词 
的 部 分 结果 展示 如 图 4 所 示 : 
Be 


weight gain 0.913 tiredness 0.835 
fat 0.864 fatieue some 0.820 
more weight 0.858 exhaustion 0.801 
gain 0.701 weary 0.797 
pound 0.602 exhausted 0.754 


图 4 部 分 描述 概念 候选 词 的 抽取 结果 
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接 下 来 ,根据 前 文 3. 3 节 中 公式 对 描述 概念 候选 
词 进行 领域 隶属 度 的 计算 ,将 词 以 隶属 度 的 降序 排列 
提供 给 领域 专家 ,进一步 分 析 判 断后 确定 FGADRO 的 
描述 概念 。 
5.3” 细 粒度 药物 不 良 反 应 本 体 建 模 

利用 Protégé 将 糖尿 病 药物 不 良 反 应 本 体 进 行 可 
视 化 。 

药物 不 良 反 应 本 体 类 的 确立 基于 医学 领域 知识 ， 
药学 领域 专家 参与 设计 本 体 的 类 及 类 层次 ,该 类 层次 
结构 主要 包含 DRUGS USED IN DIABETES (糖尿病 药 
物 类 ) 、Fine -grained ADR( 细 粒度 药物 不 良 反 应 类 )、 
patient( 患者 类 )3 个 大 类 ,每 个 大 类 下 又 包含 相应 的 子 
类 。 糖 尿 病 药物 不 良 反 应 本 体 中 涉及 的 重要 属性 包括 
“具有 不 良 反 应 “所 用 药物 "等 对 象 属性 以 及 各 种 药 
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品 及 不 良 反 应 所 对 应 的 数据 类 型 属性 。 图 5 显示 了 利 
用 Protégé 生成 的 细 粒 度 药物 不 良 反应 本 体 部 分 的 类 
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图 5 利用 Protégé 生成 的 糖尿 病 药物 
不 良 反 应 本 体 类 和 属性 
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@ 将 上 文中 筛选 出 的 细 粒 度 药物 不 良 反应 描述 概念 
忆 注 例 的 形式 添加 。 也 就 是 将 表征 和 区 分 药物 不 良 反 
ee 
走 , 而 对 同一 医学 概念 细 粒 度 描述 的 同义词 .词义 变 
体 淮 同义词 等 以 添加 实例 的 方式 表示 。 

< 最 后 利用 Pellet 推理 机 对 细 粒 度 药物 不 良 反应 本 
体 寻 行 完整 性 和 一 致 性 检验 。 

-三 本 体 的 构建 是 一 个 复杂 反复 的 过 程 ,需要 领域 专 
家 图 知识 工程 师 通 力 合 作 , 对 领域 知识 不 断 地 完善 和 
对 细节 不 断 的 补充 ,并 在 不 断 的 验证 过 程 中 ,扩展 完善 
本 体 。 笔 者 构建 的 本 体 仅 作为 实验 模型 并 用 于 验证 后 
续 研究 中 推理 检测 的 有 效 性 。 


6 ”结论 与 展望 


本 文 基于 社交 媒体 数据 源 构建 的 细 粒 度 药 物 不 良 
反应 本 体 采 用 业务 层次 和 语言 层次 分 离 的 设计 理念 ， 
将 用 户 在 网 络 健康 社区 中 评论 的 药物 不 良 反应 表示 成 
“对 象 要 素 - 属性 要 素 - 描述 概念 "的 形式 。 细 粒度 
体现 在 社交 媒体 用 户 对 药物 同一 不 良 反 应 描述 概念 
达 的 差异 和 多 样 化 上 。 本 体 构建 的 难点 在 于 人 工 梳理 
相关 知识 的 工作 量 大 、 开 发 周期 长 ,而 且 单 任 技术 人 员 
的 知识 储备 和 对 概念 间 关 系 的 主观 判断 ,不 易 做 到 准 
确 全面 。 笔 者 提出 的 细 粒 度 药 物 不 良 反应 本 体 半 自 
动 构建 方案 ,在 细 粒 度 描述 概念 的 生成 阶段 ,基于 深度 


学 习 思想 ,利用 机 器 学 习 等 技术 从 社交 媒体 自然 文本 
语 料 中 提取 描述 药物 不 良 反 应 的 相关 词汇 ,辅助 梳理 
同 义 概念 ,并 将 其 用 本 体 语言 编码 形成 易于 检索 的 本 
体 。 一 定 程度 上 提高 了 本 体 构建 的 效率 和 智能 化 水 
平 ,构建 的 药物 不 良 反应 本 体面 向 广大 药物 使 用 者 ,更 
能 体现 药物 的 真实 体验 数据 ,对 利用 社交 媒体 挖 气 洪 
在 的 药物 不 良 反应 信号 提供 语义 资源 库 。 

此 外 ,目前 的 研究 只 考虑 了 从 特定 社交 媒体 平 
台 一 一 网 络 健康 社区 收集 的 数据 。 网 络 健康 社区 相对 
其 它 社交 媒体 平台 讨论 的 主题 更 为 集中 。 使 用 其 它 流 
行 的 社交 媒体 平台 ( 如 微 信 和 微 博 ) 数 据 , 笔 者 提出 方法 
的 表现 尚未 得 到 证 实 。 因 此 ,对 于 未 来 的 研究 ,可 以 控 
讨 对 于 其 他 社交 媒体 (Twitter Facebook 等 ) 的 适用 性 。 
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Semi-automatic Construction Method of Fine -grained ADR Ontology for Social Media 
Wei Weil Fu Weigang 
' Big Data Institute, Zhongnan University of Economics and Law，Wuhan 430074 
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Abstract: [Purpose/significance | The semi-automatic construction method for the adverse drug reaction ontology is 
plepdsed. The constructed fine -grained ADR ontology provides a semantic resource library for exploiting potential ADR 
signals by using social media. [Purpose/significance | Firstly, based on the design concept that separates the business 
lexef and language level, this paper expressed the adverse drug reaction discussed in the network health community in the 
{oD)of “object-attribute -description”. The fine granularity is reflected in the diversity of describing the same adverse drug 
rhcton. Then, based on the idea of deep learning, the word2vec -based description concept candidate word extraction al- 
swithm i is used to automatically extract more description concept to construct ontology. | Result/conclusion | The model- 
ire xample shows that the fine -grained ADR ontology construction scheme proposed in this paper can improve the efficien- 
cyAd intelligence level of ontology construction. At the same time, the constructed fine -grained drug adverse reaction on- 
$e provides a semantic resource library for exploiting potential ADR signals by using social media. 


OKeywords : ontology construction ADR social media 
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